ClinVar数据库详解
ClinVar可处理用户提交的病人样本变异检测报告、变异临床意义的判读、提交者的信息和其他支持数据。ClinVar将提交的等位基因映射到参考序列,并按照HGVS标准进行报告。
“c.”前缀:基于coding DNA参考序列的标准变异命名;“p.”前缀:基于蛋白质水平氨基酸序列的标准变异命名
ClinVar数据库变异位点统计:
ClinVar数据库在线检索
搜索基因HBB:
搜索结果很多,找起来不是很方便(Glu6Val或Glu7Val),甚至感觉很难找。
搜索疾病名称(Sickle cell anemia)试一下:
搜索结果仍比较多,很难定位到临床上关注的主要变异位点(Glu6Val或Glu7Val)。
因此,ClinVar并不太适合像OMIM那样,在网站上对单个疾病或基因进行检索。如果研究文献,你会发现ClinVar最重要的应用是从个人基因组的海量变异位点中寻找致病或可能致病(P/LP)的位点。
那么我们就需要下载ClinVar的涉及所有变异位点、所有基因的后台数据,方便进行生物信息学的批量分析。(做过有关遗传学的基因组或外显子组分析的朋友可能体会到,这个功能是一个多么无敌的存在!)
ClinVar所有变异位点后台数据的下载
进入:Tab delimited
用Linux系统的wget下载:
wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/variant_summary.txt.gz
wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/README
zcat variant_summary.txt.gz | head -n 5000 # 解压并查看前5000行
head -n 5000 variant_summary.txt > variant_summary.xls # 生成excel表
各列的含义(详见:README):
HGNC_ID:string, of format HGNC
ClinicalSignificance:临床意义判读。这个信息非常重要。rs号的变异位点去掉重复后(共约60万个)的临床意义判读分布如下:
cut -f 7,10 variant_summary.txt | awk 'BEGIN{OFS=FS="\t"}{if(gen[$2]=="") print $1; gen[$2]=1}' | sort | uniq -c | sort -n
可见ClinVar收录了大概10万个P或LP变异位点
ClinSigSimple:
RS# (dbSNP):来自dbSNP的rs号;
PhenotypeList:与变异有关的表型或疾病。Phenotype/conditions。
Origin:allelic origins for this variant, germline or somatic。
测试:ClinVar数据的准确性和覆盖度
使用一些已知的致病机制模型在不同数据库中进行相互验证,是个很有趣的事。可以帮助我们测试某个数据库所收录数据的权威性、准确性和完整性。
目前从ClinVar最新获取的SNV或InDel注释大约有100万个,推测包含常见疾病的、常见变异位点,但不一定收录了所有潜在的致病位点,尤其考虑到个体的异质性及多数疾病的复杂性。接下来我们简单测试一下ClinVar数据的准确性和覆盖度。
我们先从权威数据库OMIM上搜索“Sickle cell anemia”(镰刀型贫血症),找其致病基因和致病变异位点,然后测试一下ClinVar是否收录、P/LP的归类,并配合一些其它的必要的数据库。
注意:上图中未标明起始密码子AUG翻译的甲硫氨酸(Met,M)。
6. NCBI上搜索HBB蛋白的FASTA序列:
如果计算开头的M,第7位为谷氨酸(三字母:Glu,单字母:E) ;
因此,OMIM显示的HBB蛋白的这个氨基酸变化(GLU6VAL)必然没有计算起始密码子翻译的甲硫氨酸。
ClinVar与其它数据库(如:HPO,MONDO,MedGen,OMIM,Orphanet,ClinGen和UniProtKB)的编号系统有很好的匹配。
小节:
仅看HBB蛋白的一些突变位点,OMIM显示的氨基酸变化序数并没有计算起始密码子翻译的甲硫氨酸,但ClinVar和dbSNP数据库都计算了。实际使用时要注意这一点。
以EGFR基因的G719C突变评估ClinVar
其实OMIM上并非所有的基因标记的氨基酸变化序数都没有计算起始密码子翻译的甲硫氨酸。
http://majia.yuaigongwu.com/mag/circle/v1/forum/threadWapPage?fid=141&tid=34024
ClinVar:
令人惊喜的是,ClinVar的这个后台数据也能准确报告“药物反应”和“体细胞突变”。
dbSNP:
以一个罕见病的药物靶点评估ClinVar
我们从下图中找一个罕见病。如肺动脉高压(Pulmonary Arterial Hypertension,PAH),是一种常见病、多发病,致残率、致死率高,获批药物来自Actelion公司。
https://www.sohu.com/a/376175517_139908
OMIM:
一个rs号有多个RCV号的原因:
小节:
总结
ClinVar数据库是与疾病相关的人类基因组变异数据库。在多数已知的疾病模型中,ClinVar整合了OMIM、Orphanet、ClinGen、UniProtKB和dbSNP等多个数据库的变异HGVS注释及其编号,临床意义的解释也较为准确。
总体上ClinVar数据库的准确性和覆盖度高,提交机构不断提交新的数据并免费提供给用户,是相关科学研究的宝贵资源。
即使在Top50中没有中国研究机构的身影。之后的机构粗略地看了下,有协和医院、北京大学和其它一些中国医院。考虑到我们国家人口及患者基数庞大,科研论文数量也已位居世界第一/第二,如何引导科研使其更好地指导社会生活和生产值得思考。
提取码:vthp
校对:宋红卫